视频识别的标准方法通常在完整的输入视频上运行,由于视频中的时空冗余率广泛,因此效率低下。蒙版视频建模(即视频)的最新进展表明,香草视觉变压器(VIT)仅具有有限的视觉内容来补充时空上下文的能力。受到这一点的启发,我们提出了建议的蒙版动作识别(MAR),该识别(MAR)通过丢弃一定比例的补丁并仅在视频的一部分上操作来减少冗余计算。 MAR包含以下两个必不可少的组件:单元运行掩盖和桥接分类器。具体而言,为了使VIT轻松地感知细节以外的细节,并且会呈现单元格的掩蔽,以保留视频中的时空相关性,从而确保可以在同一空间位置观察到在同一空间位置的贴片,以便轻松地重建。此外,我们注意到,尽管部分观察到的特征可以重建语义上明确的隐形贴片,但它们无法实现准确的分类。为了解决这个问题,提出了一个桥接分类器,以弥合重建的VIT编码功能与专门用于分类的功能之间的语义差距。我们提出的MAR将VIT的计算成本降低了53%,并且广泛的实验表明,MAR始终以明显的边距优于现有的VIT模型。尤其是,我们发现由MAR训练的Vit-Lage胜过由标准培训方案训练的Vit-Bugue,这是通过说服Kinetics-400和某些v2数据集中的利润率,而VIT-LARGE的计算开销仅为14.5%。维特(Vit-Huge)。
translated by 谷歌翻译